PDF Extractor SDK für Windows-Softwareentwickler: PDF zu Text, PDF zu XML, Bilder von PDF, Lesen PDF-Informationen, PDF zu CSV für Excel.
Bytescout PDF Extractor SDK ermöglicht das Konvertieren von PDF in Text, PDF in XML, PDF in CSV, Extrahieren von Bildern aus PDF, Extrahieren von Informationen über PDF-Dateien in .NET und ActiveX-Schnittstellen ohne zusätzliche Software erforderlich.
Leistungen:
wandelt PDF in reinen Text um (und kann Spalten folgen, wenn Sie eine Zeitung im PDF-Format konvertieren) - einschließlich der Extraktion unsichtbarer Texte;
Konvertiert Tabellen in PDF nach Excel (CSV) durch Lesen von Zellen aus einem gegebenen Rechteck;
Konvertiert Tabellen in PDF in XML-Dateien;
extrahiert PDF-Datei-Metadaten (Titel, Autor, Beschreibung) und erhält andere Informationen über die Datei (Anzahl der Seiten, verschlüsselt oder nicht);
extrahiert eingebettete Bilder aus PDF-Dokumenten (in ASP.NET, VB.NET, C #, VB6 und VBScript);
DocumentMerger- und DocumentSplitter-Schnittstellen und -Klassen zum Zusammenführen und Teilen von PDF-Dokumenten;
erfordert nicht, dass Adobe Reader oder eine andere PDF-Reader-Software installiert wird;
bietet .NET- und ActiveX-Schnittstellen;
Hergestellt mit 100% verwaltetem C # -Code.
Was ist neu in dieser Version:
Version 9.0.0.3079: Filtern von extrahiertem Inhalt nach Schriftart, Schriftgröße und Farbe hinzugefügt.
Die OCR-Engine wurde auf die neueste Version aktualisiert. Aktualisiere Sprachdateien aus dem 'Tessdata'-Ordner.
Verbesserte Textextraktion, Zeilengruppierung in Tabellendaten, Performance, Extraktion von XFA-Formularen, TableDetector, Probleme bei der PDF-Analyse.
Was ist neu in Version 8.7.0.2980:
Filterung des extrahierten Inhalts nach Schriftart, Schriftgröße und Farbe hinzugefügt.
Die OCR-Engine wurde auf die neueste Version aktualisiert. Aktualisiere Sprachdateien aus dem 'Tessdata'-Ordner.
Verbesserte Textextraktion, Zeilengruppierung in Tabellendaten, Performance, Extrahierung von XFA-Formularen, TableDetector, Probleme bei der PDF-Analyse.
Was ist neu in Version 8.6.0.2911:
Filterung des extrahierten Inhalts nach Schriftart, Schriftgröße und Farbe hinzugefügt.
Die OCR-Engine wurde auf die neueste Version aktualisiert. Aktualisiere Sprachdateien aus dem 'Tessdata'-Ordner.
Verbesserte Textextraktion, Zeilengruppierung in Tabellendaten, Performance, Extraktion von XFA-Formularen, TableDetector, Probleme bei der PDF-Analyse.
Was ist neu in Version 8.2.0.2699:
Version 8.2.0.2699 enthält möglicherweise nicht spezifizierte Updates, Verbesserungen oder Fehlerbehebungen.
Was ist neu in Version 8.0.0.2528:
Was ist neu in Version 7.0.0.2474:
Version 7.0.0.2474:
- hat eine neue DocumentPrinter-Utility-Klasse hinzugefügt, die es ermöglicht, PDF-Dokumente im Hintergrund zu drucken (ohne Benutzerdialoge)
- neue JSONExtractor-Klasse hinzugefügt
- hat eine Überschreibung für die DocumentSplitter.Split () -Methode hinzugefügt, die es ermöglicht, den Ausgabeordner für generierte Dateien anzugeben
- Fehler beim Multithreading-Fehler im DocumentSplitter behoben
- tableDetector berücksichtigt jetzt den Extraktionsbereich, der mit der Methode SetExtractionArea () festgelegt wurde
- neue Eigenschaften in Extraktionsklassen: ExtractionColumns - enthält Koordinaten erkannter Spalten; CustomExtractionColumns - ermöglicht das Überschreiben der Spaltenerkennung
- GetPageRect * -Methoden haben die Seitendrehung nicht berücksichtigt.
Ein Fehler im Installer wurde behoben, der dazu führte, dass einige Dateien der vorherigen Installation die Updates störten - hat die Registrierungsprüfung überarbeitet. Jetzt wird die Bibliothek keine Ausnahme auslösen, sondern im Demo-Modus arbeiten, wenn Sie Registrierungs-Name und Registrierungsschlüssel falsch eingegeben oder eingegeben haben
- PDF-Multitool: Hinzufügen der letzten Dokumentenliste zur Schaltfläche "PDF-Dokument öffnen"
- PDF Multitool: Auswahl kann jetzt in der Größe geändert werden
- PDF Multitool: Extrahiert JSON-Funktion hinzugefügt
- PDF-Multitool: Verbesserte Tabellen-Detektor-Benutzeroberfläche
- PDF Multitool: Deutlich verbesserte Schriftwiedergabequalität
- PDF-Multitool: Debug-Option "Erkannte Extraktionsspalten anzeigen" zum Kontextmenü hinzugefügt, um die erkannten Spalten auf der aktuellen Seite anzuzeigen. Wird erst sichtbar, nachdem eine Extraktion für die aktuell angezeigte Seite ausgeführt wurde
- PDF-Multitool: Es wurde ein Problem mit der Schriftdarstellung bei 32-Bit-Windows behoben
- andere kleinere Verbesserungen und Fehlerbehebungen
Was ist neu in Version 6.30.0.2421:
Version 6.30.0.2421:
- Zusätzliche TextComparer-Dienstprogrammklasse (nur in .NET 4.0-Assemblys verfügbar), mit der Text in zwei PDF-Dokumenten verglichen und ein Bericht generiert werden kann.
- Verbesserte Unterstützung von ICC-Farbprofilen.
- Verbesserte Handhabung eingebetteter Schriften.
- Verbesserter AttachmentExtractor.
- Die Methode XMLExtractor.SaveXMLToStream () wurde korrigiert.
- Die Extraktion von extrahiertem Text bei Verwendung der OCRCacheMode.WholePage-Option wurde korrigiert.
- Andere Fehlerbehebungen und Verbesserungen.
- PDF zu Text, PDF zu CSV, PDF zu XML Funktionen verbessert
- Neues Video extrahieren, Audio Beispiele extrahieren
- CSV- und XML-Extraktoren haben die Unterstützung für Tabellen mit leeren Spalten in verbessert
- neuer MultimediaExtractor zum Extrahieren von Video und Audio aus PDF
- neue Eigenschaft PageDataCaching
- neues Beispiel "MemoryCareProcessingOfHugeFiles"
- Ausnahme vom Typ "null" behoben, wenn versucht wird, bereits angeordnete Seiten zu löschen
- XLSExtractor: verbessert die Unterstützung von Schriftarten
- SkipInvisibleText überspringt jetzt abgeschnittenen Text (der nicht sichtbar ist)
- Textausgabe-Rendering verbessert
- XFDF Extractor: Unterstützung für Checkboxen hinzugefügt
- Die Bilderausgabe wurde verbessert, um mehr Unterformate zu unterstützen
- Unicode-Textverarbeitung verbessert
- Stapelverarbeitungsbeispiele wurden aktualisiert, um die Verwendung der Reset () -Methode anzuzeigen
- C ++ - Quellcodebeispiel für Pages Extraction hinzugefügt
- DocumentMerger fügt die Methode Merge2 (Eingabedatei1, Eingabedatei2, Ausgabedatei) hinzu, um zwei Dateien zusammenzuführen
- XLS Extractor kleinere Bugfixes
- PDF Multitool ermöglicht nun das Aktivieren / Deaktivieren von Text-, Bild- und Vektorlayern sowie erweiterte Einstellungen für die Textextraktion
- XML, CSV, Tabellenextraktion verbessert die Unterstützung für Tabellen mit emtpry-Zellen innerhalb von Spalten
- .ExtractShadowLikeText-Eigenschaft verbessert: bessere Filterung für schattenartigen Text
- PDF zu XML, PDF zu CSV, PDF To Text-Funktionalität verbessert
- PDF zu XLS-Befehlszeilenbeispiel hinzugefügt (basierend auf VBScript)
- Das PDF To HTML SDK fügt eine neue .DetectHyperLinks-Eigenschaft hinzu (standardmäßig TRUE), um die automatische Erkennung von Links im Text zu aktivieren / deaktivieren
- neuer SearchablePDFMaker (verfügbar für PRO-Lizenzen) zum Konvertieren von PDF in durchsuchbare PDF-Dateien
- neue Eigenschaften im Extraktor: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsorteVerticalBorders in CFG-Dateien
- Erkennung von Headerspalten (wenn AutoAlighHeaderToColumns = true) verbessert
- .DetectLinesInsteadOfParagraphs werden durch den neuen .LineGroupingMode ersetzt, um zu steuern, wie Zeilen in Absätzen zusammengeführt werden
- WICHTIG! PDF To XML behebt das Problem der langen Zeit mit einer falschen Y-Koordinate für Textobjekte (war links unten statt oben links)
- .TableXMinIntersectionRequiredInPercents-Eigenschaften und .TableYMinIntersectionRequiredInPercents-Eigenschaften hinzugefügt
- C ++ - Quellcodebeispiel hinzugefügt
- XML Extractor korrigiert fehlende leere Spalten im PreserveFormatting = true Modus
- kleinere Korrekturen in Farben in einigen PDF-Dateien
- Unterstützung für mehrere OCR-Sprachen hinzugefügt
- PDF-Multitool-GUI: Fügt die Schaltfläche "In Zwischenablage kopieren" zu TXT-, CSV-, XML- und Raster-Renderer-Dialogen hinzu
- XLSExtractor: fügt die PageToWorksheet-Eigenschaft hinzu, um das Generieren separater Arbeitsblätter pro Seite zu aktivieren / deaktivieren
- neue .TextEncodingCodePage-Eigenschaft
- PDFViewerControl: Fügt ValidateContextMenu hinzu, damit Benutzer benutzerdefinierte Elemente zum Kontextmenü hinzufügen können
- PDF-Viewer-Steuerelement: fügt die Eigenschaften ShowTextObjects, ShowImageObjects, ShowVectorObjects hinzu
- XMLExtractor fügt jetzt das Attribut "OCRConfidence" für erkannten Text hinzu
- PDF / A Prüffunktionalität (in der Betaversion)
- Verbesserung der Steuerelemente und Überprüfung und Ausrichtung von Texten gemäß dem ursprünglichen Layout. Das Problem wurde durch die Verschiebung der Y-Koordinaten in den Steuerelementen beim Parsen verursacht: das war falsch. Der richtige Weg ist es, ...
- XML Extractor aktualisiert: jetzt erzeugt CONTROL-Tag für Checkboxen und Textfelder
- hat die Verwendung des aktuellen Verzeichnisses in das temporäre Verzeichnis geändert
- Checkboxen, Radioboxen, Editboxen, Comboboxen werden besser unterstützt
- ermöglicht nun teilweise vertrauenswürdige Anrufer
- PDF zu XML, PDF zu CSV, PDF to Text-Funktionalität aktualisiert
- OCRMode bietet jetzt 9 Modi
- .DetectLineInsteadOfParagraph funktioniert jetzt viel besser. Setzen Sie es auf False, um mehrzeiligen Text in Tabellenzellen zu erfassen!
- Die Unterstützung von PDF-Steuerelementen wurde verbessert
- FDF- und XFDF-Datenextraktion
- PDF zu XML, PDF zu CSV, PDF to Text Funktionen verbessert
- unterstützt jetzt die Extraktion von Text aus Textsteuerelementen
- Der XML-Extraktor fügt nun Schriftart, Größe, Name und Textkoordinaten in Tags ein
- ASP.NET-Beispiel für die OCR-Verwendung hinzugefügt
- neue Eigenschaft OCRLanguageDataFolder, um den Speicherort des Ordners "tessdata" anzugeben
- verbesserte Unterstützung von PDF-Dateien
- verbessert die Unterstützung für gedrehten Text
- aktualisierte Quellcode-Beispiele
- aktualisierte Dokumentation
- kleinere Verbesserungen und Korrekturen
- OCR-Funktion (Text aus Bildern) hinzugefügt: Jetzt können Sie Text aus eingebetteten Bildern extrahieren und beschädigten Text reparieren
- Problem behoben mit CSV und XML-Extraktor fehlende letzte Spalten mit einigen Einstellungen
- verbesserte Unterstützung für beschädigte PDF-Dateien
- mehrzeilige Suchtextsuche mit Wortabgleichmodi wird jetzt unterstützt
- kann jetzt Text mit Bindestrichen und in verschiedenen Zeilen suchen: siehe neues Quellcode-Beispiel Text mit Bindestrichen suchen
- neue Eigenschaft .RTLTextAutoDetectionEnabled (standardmäßig false), um RTL-Sprachen automatisch zu erkennen
- PDF Viewer GUI-Demo verbessert
- kleinere Verbesserungen und Korrekturen
Was ist neu in Version 6.20.2354:
Version 6.20.2354:
Was ist neu in Version 6.11.2149:
Version 6.11.2149:
Was ist neu in Version 6.10.2136:
Version 6.10.2136:
Was ist neu in Version 5.80.1781:
Version 5.80.1781:
Was ist neu in Version 5.10.1747:
Version 5.10.1747:
Was ist neu in Version 5.00.1626:
Version 5.00.1626:
Anforderungen :
.NET Framework 2.0 oder höher
Einschränkungen stark>:
Nag Bildschirm, Wasserzeichen bei der Ausgabe
Kommentare nicht gefunden